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(57) Abstract 

The text to be classified is compared with the contents of a relevance lexicon in which the significant words of the texts to be 
classifieJare stor^accSg to text class and their relevance for the text classes. THe blurred quantity (fuzzy ^'f* ^« 

Sfc^n^e ^Ttext class of the significant words of the text to be classified and their relevance or the text class «s calcu ated A 
pror^im^calculation determines the degree of probability with which the fuzzy quantity occurs per class for the class in question. The 
class with the highest degree of probability is selected and the text is assigned to this class. 




(57) Zusammenfassung 

Der zu klassifizicrcndc Text wird mit dem Inhalt ernes Relevanzlexikons verglichen, in dem die signifikanten Wdrter der zu 
klassifizierenden Texte pro Textklasse und dercn Relevanz filr die Textklassen gespeichert ist. Es wird die unscharfe Menge (Fuzzymenge) 
berechnet, die filr die signifikanten Worte des zu klassifizierenden Textes deren Auftreten pro Textklasse und deren Relevanz fur die 
Textklasse angibt. Mit einer Wahrscheinlichkeitsberechnung wird ermittelt. mit welcher Wahrscheinlichkeit die Fuzzymenge pro Klasse fur 
die entsprechende Klasse auftritt. Die Klasse mit der hochsten Wahrscheinlichkeit wird ausgewahlt und dieser Klasse der Text zugeordnet. 
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Beschreibung 

Verfahren zur automatischen Klassif ikation eines auf einem 
Document auf gebrachten Textes nach dessen Transformation in 
5 digitale Daten 

Aus [1] ist ein System bekannt, mit dem z. B. Geschaf tsbrief - 
dokumente kategorisiert werden konnen und dann in elektroni- 
scher oder Papierform weitergeleitet werden konnen, bzw. ge- 

10 zielt abgelegt werden konnen. Dazu enthalt das System eine 

Einheit zur Layout segment ierung des Dokumentes, eine Einheit 
zur optischen Texterkennung , eine Einheit zur Adressenerken- 
nung und eine Einheit zur Inhaltsanalyse und Kategorisierung . 
Fur die Segmentierung des Dokumentes wird ein gemischter bot- 

15 tom-up- und top-down-Ansatz benutzt, der als Einzelschritte 
die 

• Erkennung der zusammenhangenden Komponenten, 

• Erkennung der Textlinien, 

• Erkennung der Buchstabensegmente , 
20 • Erkennung der Wortsegmente und 

• Erkennung der Absat zsegmente umfaEt . 

Die optische Texterkennung ist in drei Teile gegliedert: 

• Buchstabenerkennung in Kombination mit lexikonbasierter 
2 5 Wort ver i f ikat ion , 

• Worterkennung, 

mit der Klassif izierung aus Buchstaben und wortbasierter 
Erkennung . 

30 Die Adresserkennung wird mit einem unif ikat ionsbasierten Par- 
ser durchgef uhrt , der mit einer attributierten kontextf reien 
Grammatik fur Adressen arbeitet . Im Sinne der AdreSgrammatik 
korrekt geparste Textteile sind dement sprechend Adressen. Die 
Inhalte der Adressen werden uber Merkmalsgleichungen der 

35 Grammatik bestimmt. Das Verfahren wird in [2] beschrieben. 
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Fur die Inhaltsanalyse und Kategorisierung werden Informati- 
on-Retrieval Techniken zur automat ischen Indexierung von Tex- 
ten benutzt. Im einzelnen sieht dies wie folgt aus : 

5 • Morphologische Analyse der Worter 

• Eliminierung von Stoppwortern 

• Erstellung einer Wortstatistik 

• Berechnung des Indextermgewichts mit aus dem Inf ormations- 
Retrieval bekannten Formeln, wie z. B . der inversen Doku- 

10 menthauf igkeit . 

Mittels der so berechneten Indextermgewichte wird nun fur al- 
le Kategorien eine dreistufige Liste signif ikanter Worter er- 
mittelt, welche die jeweilige Kategorie charakterisiert . Wie 
15 in [1] beschrieben, werden diese Listen nach der Trainings- 
phase noch manuell iiberarbeitet . 

Die Kategorisierung eines neuen Geschaf tsbrief es erfolgt dann 
durch den Vergleich der Indexterme dieses Briefes mit den Li- 

20 sten der signif ikanten Worter fur alle Kategorien. Die Ge- 

wichte der im Brief enthaltenen Indexterme werden je nach Si- 
gnif ikanz mit einer Konstanten multipliziert und auf summiert . 
Durch Teilen dieser Summe durch die Anzahl der Indexterme im 
Brief ergibt sich somit fiir jede Klasse eine Wahrscheinlich- 

25 keit . Die genauen Berechnungen ergeben sich aus [3] . 

Ergebnis der Inhaltsanalyse ist dann eine nach Wahrschein- 
lichkeiten sortierte Hypothesenliste . 

Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein 
3 0 Verfahren anzugeben, nach dem die Inhaltsanalyse des Textes 
und damit die Textklassif ikation verbessert wird. Dabei wird 
davon ausgegangen, da£ der Text des Dokumentes bereits als 
digitale Daten vorliegt, die dann weiterverarbeitet werden. 

3 5 Diese Aufgabe wird gemafi den Merkmalen des Patentanspruches 1 
gelost . 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Anspriichen . 

Ein Anwendungsf all des Verfahrens ist die automat ische Dia- 
5 gnose aus medizinischen Befunden. Fasst man einen medizini- 
s chen Be fund als Text und eine Krankheit als eine Klasse auf , 
so kann man das Problem der automatischen Diagnose mit dem 
Verfahren der Textklassif ikation losen. Ein wesentlicher Vor- 
teil des Verfahrens ist, dafi es aus einer Menge von Befunden, 
0 deren Diagnose bekannt ist, automatisch und uniiberwacht das 
zur Klassif ikation notige Wissen lernt . Fut den Arzt ist kein 
zusatzlicher Auf wand notig, er muS nur wie gewohnt den Befund 
schreiben. Gelernt wird aus den bereits vorhandenen Befunden. 
Nach der Trainingsphase wird dann mit Hilfe der gelernten 
5 wissensquelle und Techniken der Fuzzy-Mengen ein Befund klas- 
sif iziert. Die dem Befund zugeordnete Klasse entspricht der 
diagnostizierten Krankheit . 

Es wird zunachst davon ausgegangen, daS der zu untersuchende 
0 Text bereits in Form von ASCII-Daten vorliegt. 

Vor der inhaltlichen Analyse eines Textes wird eine morpholo- 
gische Analyse durchgef uhrt , die im ersten Schritt alle Wor- 
ter lemmatisiert (d.h. auf ihre Stammformen reduziert) und 
25 dann mit einem stochastischen Tagger lexikalische Mehrdeutig- 
keiten auf lost . Fur die Lemma t is ierung kann ein Verfahren 
nach [4] verwendet werden . Eine Beschreibung des verwendeten 
Taggers kann [5] entnommen werden. Ausgangspunkt fuer alle 
weiteren Bearbeitungsschritte ist immer der getaggte Text.. 

30 

Die Textklassif ikation ist trainingsbasiert . Aus einer Menge 
von Trainings texten, deren Klassen bekannt sind, wird die 
Haufigkeit von Klassen, von Wortern insgesamt und von Wortern 
in den jeweiligen Klassen gezahlt . Mit diesen Haufigkeiten 
35 wird dann die empirische Korrelation zwischen einem Wort und 
einer Klasse nach Pearson [6] berechnet . Diese Korrelation 
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wird fur alle Worter und alle Klassen berechnec und gilt als 
Relevanz eines Wortes fur eine Klasse. 

Berucksichtigt werden nur Korrelationen grofier einem Wert 
5 r_max, der sich aus der Priifung der Unabhangigkeit auf einem 
Signif ikanzniveau von z. B. 0.001 ergib.t (siehe hierzu z. B. 
[7] ) . Als Ergebnis erhalt man ein Lexikon, das die Relevanzen 
der Worter fiir die Klassen enthalt. 

10 Ein Text wird nach dessen morphologischer Analyse mit Hilfe 
dieses Relevanzlexikons wie folgt klassif iziert : Fur jede 
Klasse wird eine unscharfe Menge ermittelt, die alle relevan- 
ten Wortern enthalt. Die Zugehorigkeitsfunktion der un- 
scharfen Menge entspricht gerade dem KorrelationsmaS von 

15 Pearson. Urn die wahrscheinlichste Klasse zu erhalten, wird 

fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen Menge 
von relevanten Wortern berechnet . Dazu wird die in der Fuzzy - 
Theorie gebrauchliche Formel aus [8] benutzt, namlich: 

20 prob(A):= I^ A (x) - p(x), 

x 

wobei M-a die Zugehorigkeitsfunktion der unscharfen Menge A 
von relevanten Wortern einer Klasse ist und p(x) als p(x ist 
relevant fur A) interpretiert wird: 

p(x ist relevant fur A) := p(A|x) = p(x f A) / p (x) 

25 

Als Ergebnis der Klassif ikation wird die Klasse mit der wahr- 
scheinlichsten Fuzzymenge ausgegeben . 

Weiterbildungen der Erfindung ergeben sich aus den abhangx^n 
3 0 Anspriichen. 

An Hand eines Ausf xihrungsbeispieles wird die Erfindung wexter 
erlautert . Es zeigen 

Figur 1 eine prinzipieile Darstellung des Verfahrens, 
35 Figur 2 den Ablauf der Vorbereitung des Textes, 

Figur 3 ein Verfahren zum Trainieren des Systems, 
Figur 4 das Verfahren zur Klassif ikation des Textes. 
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Aus Figur 1 ergibt sich eine prinzipielle Darstellung des 
Verfahrens. Der Text auf einem Papierdokument DOK soil klas- 
sif iziert werden. Zunachst wird das Dokument DOK mit Hilfe 
eines Scanners SC eingescannt und eine Bilddatei BD erzeugt . 
Mit Hilfe des in der europaischen Patentanmeldung 0 515 714 
Al bekannten Verfahrens wird der zu klassif izierende Text in 
einer Layout segment ierung SG segmentiert und das Textsegment 
TXT-SG gebildet . Man erhalt wiederum eine Bilddatei, die 
jetzt nur noch den Textteil des Dokumentes enthalt . Die Bild- 
daten dieses Textes werden nun mit OCR in ASCII -Daten umge- 
wandelt. Diese sind in Fig. 1 mit TXT bezeichnet . Mit Hilfe 
eines Trainingslexikons REL-LEX wird die Textklassif ikat ion 
TXT - K durchgefuhrt , somit eine Klassenhypothese erzeugt, die 
angibt, mit welcher Wahrscheinlichkeit der zu klassif izieren- 
de Text einer bestimmten Klasse zuzuordnen 1st . Die Klassen- 
hypothese ist in Fig. 1 mit KL-H benannt . 

Vor der inhaltlichen Analyse des Textes TXT, der in ASCII - 
Format vorliegt, wird eine morphologische Analyse durchge- 
fuhrt. Dazu werden im ersten Schritt alle Worter des Textes 
lemmatisiert , d.h. auf ihre Stammformen reduziert (dies er- 
folgt mit Hilfe eines Lemmatisierers LEM, der den lemmati- 
sierten Text L-TXT liefert) und dann mit einem stochast ischen 
Tagger TAG lexikalische Mehrdeut igkeiten aufgelost. Ergebnis 
dieser Behandlung des Textes TXT ist der getaggte Text T-TXT, 
der dann weiterverarbeitet werden kann. Die Funktionsweise 
des Lemmatisierers LEM ist in [4] beschrieben, der Aufbau und 
die Funktion des Taggers in [5] . 

Ausgangspunkt der weiteren Bearbeitungsschritte ist nun der 
getaggte Text T-TXT. 

Bevor die Textklassif ikat ion durchgefuhrt werden kann, mu£ 
eine Trainingsphase vorgesehen werden. In dieser Trainings - 
phase wird ein Relevanzlexikon REL-LEX erzeugt, das spater 
fur die Klassif ikation von Texten verwendet werden wird. Dazu 
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wird aus einer Menge von Trainingstexten TXT-TR , deren Klas- 
sen KL-TXT bekannt sind, die Haufigkeit von Klassen, von Wor- 
tern insgesamt und von Wortern in den jeweiligen Klassen ge- 
zahlt. Dies erfolgt in einer Einheit FR zur Frequenzberech- 
5 nung, in der die Wort f requenzen FR-W und die Klassenf requen- 
zen FR- KL gebildet werden. Mit diesen Hauf igkeiten wird die* 
empirische Korrelation zwischen einem Wort und einer Klasse 
nach Pearson [6] berechnet : 

N-Twc-Iw'Sc 

LO rlv(w in c):=r(w,c)= , 

J(M • Z w 2 - (I w) 2 ) • (N • T c 2 - (scr) 

dabei ist: 

N^Anzahl der Trainingstexte , 

Z wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
15 Z w=Anzahl der Trainingstexte mit Wort w, 

Zc=Anzahl der Trainingstexte der Klasse c. 

Diese Korrelation wird fur alle Worter und alle Klassen be- 
rechnet und gilt als Relevanz REL eines Wortes fur eine Klas- 
20 se. Dabei wird beachtet, daS die Korrelationen nicht zu klein 
werden, es wird somit ein Wert r-max eingefuhrt, der z. B. 
auf einem Signif ikanzniveau 0,001 eingestellt wird [7]. Die 
Ergebnisse, also die Relevanzen eines Wortes fur eine Klasse 
werden in einem Lexikon REL -LEX abgespeichert , das also die 

2 5 Relevanzen der Worter fur die Klassen enthalt . 

Nachdem das Relevanzlexikon REL -LEX erzeugt worden ist, kann 
nun der zu untersuchende Text T-TXT klassif iziert werden. Da- 
zu werden ausgewahlte Worter des Textes , die von signif ikan- 

3 0 ter Bedeutung sind, aus dem Text mit den im Relevanzlexikon 

REL -LEX vorhandenen Beziehungen zwischen den Wortern und den 
Klassen untersucht und daraus fur den Text und fur jede Klas- 
se eine unscharfe Menge, eine sogenannte Fuzzymenge FUZ-R, 
erzeugt. Diese Fuzzymengen pro Klasse werden in einer Datei 
35 FUZ-KL abgespeichert. Die Fuzzymenge pro Klasse enthalt die 

Worte des Textes, die in der Klasse vorkommen und deren Rele- 
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vanz fur diese Klasse. Aus der Fuzzymenge wird fur jede Klas- 
se die Wahrscheinlichkeit ihrer unscharfen Menge von relevan- 
ten Wdrtern in einer Einheit PROB berechnet und in einer Da- 
tei PROB-KL abgespeichert . Dazu wird die Zugehorigkeitsf unk- 
tion der unscharfen Menge zu der Klasse bestimmt, die gerade 
dem KorrelationsmaS von Pearson entspricht . Die Wahrschein- 
lichkeit wird nach der in der Fuzzy-Theorie gebrauchlichen 
Formel berechnet, diese Formel ist bereits oben angegeben 
worden und ist aus [8] bekannt . In einer Einheit MAX zur Ma- 
ximumberechnung wird die Klasse ausgewahlt, fur die die hoch- 
ste Wahrscheinlichkeit ausgerechnet worden ist. Dieser wird 
der Text T-TXT zugeordnet . Diese Klasse ist in Figur 4 mit 
TXT - KL benannt. 

Das folgende Anwendungsbei spiel soli das Verfahren erlautem 

News aus der USENET- Newsgruppe de . comp . os . linux .misc sollen 
in die Klassen Drucker, Konf iguration, Netzwerk, Sound, Ex- 
terner Speicher, Video, Software, Entwicklung, Kernel, Kommu 
nikation, Eingabegerate , SCSI, X-Windows und Betriebssystem 
einsortiert werden. 

Der erste Bearbeitungsschritt eines Textes ist die morpholo- 
gische Analyse. Sie transf ormiert z.B. den Satz Belm Starten 
von X kommt mit der Mirage-P32 nur ein weiSer Bildschirw in 
die lemmatisierte Form: 

0 1 Beim beim prp 

1 2 starten starten vfin 

1 2 starten starten vinfin 

2 3 von von prp 

3 4 X x n 

4 5 kommt kommen vfin 

5 6 mit mit prp 

5 6 mit mit vprt 

6 7 der d pron 
6 7 der der det 

6 7 der der relpron 
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7 8 Mirage mirage n 

8 9 - - - 

9 10 P32 p32 n 

10 11 nur nur adv 
5 11 12 ein ein dec 

11 12 ein ein vprc 

12 13 weisser weiss adjflk 

13 14 Bildschirm bildschirm n 

13 15 Bildschirm. bildschirm. $$$ 
10 13 14 Bildschirm. bildschirm. $$$ 

14 15 . . eos_punkt 

14 15 . . punkt 

15 16 $CR$ SCR $CR$ 

15 Der Tagger lost die Mehrdeutigkeiten bei Kategorien und 
Grundformen auf : 

0 1 Beim beim prp 

1 2 starten starten vfin 
2 0 2 3 von von prp 

3 4 X x n 

4 5 kommt kommen vfin 

5 6 mit mit prp 

6 7 der der det 

2 5 7 8 Mirage mirage n 

8 9--- 

9 10 P32 p32 n 

10 11 nur nur adv 

11 12 ein ein det 

30 12 13 weisser weiss adjflk 

13 14 Bildschirm bildschirm n 

14 15 . . eosjpunkt 

Im Training wurde folgendes Relevanzlexikon trainiert 
35 (Ausschnitt) : 

soundkarte n 
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<konf iguration> rlv = 0.012523 
<netzwerk> rlv = -0.033766 
<sound> rlv = 0.716692 
<externer speicher> rlv = -0.005260 

monitor_n 

<video> rlv = 0.606806 

drucker_n 

<drucker> rlv = 0.683538 
<software> rlv = 0.014210 

gcc_n 

<entwicklung> rlv = 0.68403-6 
<kernel> rlv = 0.103325 
<kommunikation> rlv = -0.083844 

apsf ilter_n 

<drucker> rlv =0.561354 

graf ikkarte_n 

<eingabegeraete> rlv = -0.008924 
<konf iguration> rlv = 0.017783 
<scsi> rlv = -0.005854 
<video> rlv = 0 . 501108 

xdm_n 

<eingabegeraete> rlv = 0.023704 
<x-winows> rlv = 0.580419 

scsi^n 

<eingabegeraete> rlv = -0.065260 
<kernel> rlv = -0.026075 
<konf iguration> rlv = 0.117458 
<netzwerk> rlv = -0.035671 
<becriebssystem> rlv = -0.063972 
<scsi> rlv = 0.582414 
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<sound> rlv = -0.041297 

<externer speicher> rlv = 0.284832 

<video> rlv = -0.107000 

ethernet_n 

<kommuiiikatiori> rlv = -0.012769 
<netzwerk> rlv = 0.502532 
<betriebssysten\> rlv = 0.014134 



x_n 

<drucker> rlv = -0.073611 
<eingabegeraete> rlv = 0.005764 
<entwicklung> rlv = 0.073568 
<kernel> rlv = 0.005127 
<kommunikation> rlv = -0.108931 
<konf iguration> rlv = -0.055763 
<netzwerk> rlv = -0.077721 
<bet.riebssystem> rlv = -0.046266 
<scsi> rlv = -0.054152 
<sound> rlv = -0.037581 
<exteme speicher> rlv = -0.081716 
<software> rlv = 0.037474 
<video> rlv = 0.197814 
5 <x-winows> rlv = 0.299126 

mirage_n 

<scsi> rlv = 0.065466 
<video> rlv = 0.221600 

0 

blldschirm_n 

<drucker> rlv = -0.023347 
<eingabegeraete> rlv = 0.036846 
<entwicklung> rlv = -0.022288 
5 <konf iguration> rlv = -0.014284 

<video> rlv = 0.216536 
<x-windows> rlv = 0.269369 
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starten^vinf in 

<koramunikation> rlv = 0.002855 
<konf iguration> rlv = 0.060185 
<betriebssystem> rlv = 0.006041 
<externe speicher> rlv = -0.001856 
<x-windows> rlv = 0.260549 



starten_vf in 
10 <drucker> rlv = -0.038927 

<entwicklung> rlv = -0.037790 

<kernel> rlv = -0.009309 

<kommunikation> rlv = -0.057605 

<konf iguration> rlv = 0.035588 
15 <netzwerk> rlv = 0.045992 

<betriebssystem> rlv = -0.003344 

< sound > rlv = -0.019409 

<externe speicher> rlv = -0.043312 

<video> rlv = 0.110620 
20 <x-windows> rlv = 0.178526 

Nun werden fur die Klassen die Fuzzy-Mengen gebildet: 
Video = {x(0. 197814) ,mirage(0. 221600) , bildschirm ( 0 .216536) } 
X -Windows = 

2 5 {starten(0 .17 8526) ,x(0 .299126) ( bildschirm ( 0 . 269369 ) } 

Weiterhin sind bekannt die Wahrscheinlichkeiten der Worter: 

Wort Video X-Windows 

30 x 0 .24 0 . 19 

mirage 0.8 

bildschirm 0.43 0.33 

scarten 0.24 0.21 
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Hieraus und aus den Zugehorigkeitsf unktionen der Worter be- 
rechnen wir die Wahrscheinlichkeiten der Klassen: 
Prob(Video) = 0.197814*0.24 + 0.221600*0.8 + 0.216536*0.43 
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Prob (X-Windows) = 0.178526*0.21 + 0.299126*0.19 + 
0.269369*0.33 
Prob (Video) =0.3 
Prob (X-Windows) = 0.18 
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Patentanspruche : 

1. Verfahren zur automat ischen Klassif ikat ion eines auf einem 
Dokument auf gebrachten Textes nach dessen Transformation in 
5 digitale Daten mit Hilfe eines Rechners, 

• bei dem jede Textklasse durch signif ikante Worter def iniert 
ist , 

• bei dem in einer Lexikondatei (REL-LEX) fur jede Textklasse 
die signif ikanten Worter und deren Signifikanz fur die 

10 Textklasse gespeichert werden, 

• bei dem ein zuzuordnender Text mit alien Textklassen ver- 
glichen wird und fur jede Textklasse die unscharfe Menge 
(Fuzzymenge) von Worten in Text und Textklasse und deren 
Signifikanz fur die Textklasse ermittelt wird, 

15 • bei dem aus der Fuzzymenge jeder Textklasse und deren Si- 
gnifikanz fur jede Textklasse die Wahrscheinlichkeit der 
Zurordnung des Textes zur der Textklasse ermittelt wird # 

• bei dem die Textklasse mit der hochsten Wahr s che inl i chke i t 
gewahlt wird und dieser der Text zugeordnet wird. 

20 

2. Verfahren nach Anspruch 1, 

• bei dem der zu klassif izierende Text vor der Inhal tsanalyse 
in einem Lemmatisierer (LEM) lemmatisiert wird ( 

• bei dem der lemmatiserte Text (L-TXT) einem stochastischem 
25 Tagger (TAG) zugefuhrt wird, urn lexialische Mehrdeutigkei- 

ten aufzulosen, 

• und bei dem der getaggte Text (T-TXT) zur Textklassif ikati- 
on verwendet wird. 

3. Verfahren nach Anspruch 2, 

• bei dem zur Klassif ikation des Textes ein Relevanzlexikon 
(REL-LEX) erzeugt wird, 

• bei dem dazu eine Menge von Trainingstexten , deren Klassen 
bekannt sind, verwendet wird, 

• bei dem aus dieser Menge die Haufigkeit der Klassen, von 
Wortern und von Wortern in den jeweiligen Klassen gezahlt 
wird, 
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• bei dem mit diesen Hauf igkeiten eine empirische Korrelation 
zwischen einem Wort und einer Klasse berechnet wird, 

• bei dem diese Korrelation fur alle Worter und alle Klassen 
berechnet wird und das Ergebnis der Berechnung als Relevant 
eines wortes fur eine Klasse in einer Datei gespeichert 
wird, die als Relevanzdatei oder Relevanzlexikon ( REL-LEX) 
verwendet wird. 

4. Verfahren nach Anspruch 3, 

bei dem die Korrelation (Relevanz) zwischen einem Wort und ei- 
ner Klasse nach folgender Formel erf olgt : 



dabei ist : 

N=Anzahl der Trainingstexte, 

v wc=Anzahl der Trainingstexte der Klasse c mit Wort w, 
I w=Anzahl der Trainingstexte mit Wort w, 
Vc=Anzahl der Trainingstexte der Klasse c. 

5. Verfahren nach Anspruch 4, 

bei dem nur Korrelationen > einem gewahlten Wert r-max be- 
riicksichtigt werden, der auf einem Signif ikanzniveau von z. 
B . 0.001 festgelegt wird. 

6 . Verfahren nach Anspruch 5 , 

• bei dem der zu untersuchende Text (T-TXT) und das Relevanz 
lexikon (REL-LEX) dazu verwendet wird, urn fur jede Klasse 
die unscharfe Menge (Fuzzymenge) der signif ikanten Worter 
pro Klasse und deren Relevanz pro Klasse zu ermitteln, 

• bei dem aus der Fuzzymenge pro Klasse und deren Relevanz 
fur jede Klasse die Wahrscheinlichkeit ihrer unscharfen 
Menge von relvanten Wort em berechnet wird, 



rlv(w in c):=r(w,c)= 



N • I wc - I w • ; c 



^(N Zw 2 - ( I w ) 2 ) • ( N • I c 2 - (Id 2 ) 
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• bei dem aus den Wahrscheinlichkeiten pro Klasse die Klasse 
mit der maximalen Wahrscheinlichkeit ermittelt wird und 
dieser Klasse der Text zugeordnet wird. 

7. Verfahren nach Anspruch 6, 

bei dem die Berechnung der Wahrscheinlichkeit nach der Formel 

prob(A): = Z ^i A ( x ) ' P( x ) • 
x 

erfolgt, wobei |i A die Zugehorigkeitsf unktion bedeutet, die 
angibt, in wieweit die Fuzzymenge einer Klasse zugeordnet 
wird und die gerade dem Korrelationsmafi nach obiger Formel 
entspricht. 

8 . Verwendung des Verf ahrens nach einem der vorhergehenden 
Anspruche zur automatischen Diagnose aus medizinischen Bef un- 
den, 

bei dem medizinische Befunde als Text und eine Krankheit als 
eine Klasse aufgefafit wird 

bei dem in einer Trainingsphase das zur Klassif ikation erfor- 
derliche Wissen aus einer Menge von Befunden, deren Diagnose 
bekannt ist, automatisch gelernt wird 

und bei dem ein neuer Befund nach der Technik der Fuzzymengen 
klassif iziert wird. 
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